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Эффективность и масштабируемость 
параллельных одношаговых блочных методов 
решения задачи Коши 


В статье рассматриваются два семейства параллельных неявных блочных методов решения задачи 
Коши. Определяется порядок аппроксимации каждого из методов, дается оценка для невязок 
методов. Для предложенного метода распараллеливания производится построение оценок ускорения, 
эффективности и масштабируемости. На основании полученных оценок даются рекомендации, при 
каких условиях данные методы наиболее продуктивны. 


Введение 


Применение высокопроизводительных параллельных вычислительных систем (ВС) 
является одним из основных направлений развития современной компьютерной 
науки. Это обстоятельство вызвано не только принципиальным ограничением 
максимально возможного быстродействия обычных последовательных машин, но и 
постоянным появлением новых вычислительных задач, для решения которых воз- 
можностей существующих средств вычислительной техники всегда оказывается 
недостаточно. Моделирование реальных многомерных динамических процессов, 
описываемых системами обыкновенных дифференциальных уравнений (СОДУ), и 
представляет собой класс задач, при реализации которых использование параллельных 
суперкомпьютеров не только оправдано, но и необходимо. Об этом свидетельствует 
известный список «большой вызов», в котором такие задачи занимают одно из 
ведущих мест [1]. 

Целью данной работы является анализ двух семейств классических параллельных 
одношаговых блочных методов, в том числе сравнительный анализ их характеристик: 
сначала осуществляется оценка невязок, на основе которой для методов с одинаковым 
порядком аппроксимации осуществляется оценка ускорения, эффективности и 
масштабируемости. 


Задача Коши 


Задача Коши для системы обыкновенных дифференциальных уравнений (СОДУ) 
первого порядка с известными начальными условиями имеет вид (1). Существует 
много параллельных методов решения задачи Коши для СОДУ первого порядка. 
В данной статье мы рассмотрим два метода — канонические одношаговые блочные 
методы и одношаговые блочные методы, предложенные Т.А. Биккартом в [2], в даль- 
нейшем для краткости мы будем их называть методом «типа Биккарта». 
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ау, (х) 

а: Я (о) = У, 

ах 

ау, (х) 

а =»), У2(ж) = У», (1) 
4 (х 

в бару.) У (№0) = Ут: 


Прежде чем приступить к описанию методов, введем некоторые обозначения. 
Множество 5 точек равномерной сетки {1,}, Ч=1,О и 1, =Т с шагом т разобьем 
на № блоков, содержащих А точек каждый, при этом АхМ<О. В каждом блоке 


введем номер точки 1 =0,К и обозначим через #,, точку п блока с номером 1. Точку 


пл 
1, назовем началом блока п, а {,, — концом блока. Очевидно, что имеет место 
ЕЁ но. Условимся начальную точку & =1, в блок не включать. При численном 


решении задачи Коши для каждого следующего блока новые К значений функции 
вычисляются одновременно. 


О СИИ 


Воск 1 Во п 


Рисунок 1 — Схема разбиения на блоки для одношагового К-точечного метода 


Пусть иИ»,о — приближенное значение решения задачи Коши (1) в точке {0 — начальной 
точке обрабатываемого блока. Предполагается, что в пределах одного блока точки 


сетки находятся на равных расстояниях: 1, = +М,1=1К. 


Канонические одношаговые блочные методы 


Уравнения канонических одношаговых разностных блочных методов для блока 
из К точек при использовании вычисленного значения приближенного решения в 
последнем предшествующем блоку узле, с учетом введенных выше обозначений 
можно записать в виде (2). 


И: = Ио +1-Ф Е о+У а, Е, =, п =Ь М, (2) 
где = Ув ч+утьи, ,]. 


Одношаговые блочные методы «типа Биккарта» 


Уравнения одношаговых разностных блочных методов «типа Биккарта» для 
блока из А точек при использовании вычисленного значения приближенного реше- 
ния в последнем предшествующем блоку узле, с учетом введенных выше обозна- 
чений можно записать в виде (3). 
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р а = Е; =Ъ ‚п=ЬМ, () 
о В = Г, +тьи, ). 


Анализ невязок методов 


Построим невязки для двухточечного канонического блочного метода (4) и 
двухточечного метода «типа Биккарта» (5). 


= То [2 |= +О[Т 
24 (4) 


„= ОТ. 


к. = вх [2 = +ОР 


. (5) 


п, 


р = [2 |= + ОР 


Из (4) и (5) видно, что двухточечный канонический блочный метод и двухточечный 
метод «типа Биккарта» имеют различные порядки аппроксимации, т.е. заведомо 
известно, что точность результатов этих двух методов будет различной. Для 
того чтобы сравнивать методы, нам необходимо, чтобы они имели один порядок 
аппроксимации. Возьмем трехточечный метод «типа Биккарта» (6). 


1 
= =.” [+ |= + О 
1 
„>= р” [, |“ +ОТ . (6) 


И и [2 = +От] 


Как мы видим из (4) и (6), трехточечный метод «типа Биккарта» имеет тот же 
порядок аппроксимации, что и двухточечный канонический блочный метод. Ана- 
логично можно проверить, что трехточечный канонический блочный метод и четы- 
рехточечный метод «типа Биккарта» имеют один порядок аппроксимации и т.д. Мы 
получаем, что у канонического блочного метода в блоке К точек, а у метода «типа 
Биккарта» К-+1 точка. Введем условие, что у обоих методов размер блока одина- 
ковый (рис. 2), тогда мы получим соотношение (7). 


Тыск Тыск 


Рисунок 2 — Вычислительные сетки для двухточечного канонического блочного 
метода и трехточечного метода «типа Биккарта» 
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т Е Т — Ао т ЕС К К 
| . р и => Тыск = о Та = Тома ы (7) 
| Ки +1 К+1 
Общий вид уравнения невязки имеет вид (8). 
а 
где С=шах [С]. (8) 


ЕС 


Из (8) для методов одного порядка аппроксимации с учетом (7) отношение 
невязок двух методов имеет вид (9). 


7, ий С о Са р ий д С р [4 ” 
— © +1) ° 9) 


р р 
к Сы Тыв Сы [1 Се 
Е 


Отношения невязок методов для А =2-—6 представлены в табл. 1. 


Таблица 1 — Отношения невязок методов для к=2-6 


Г = [3 4 5 6 
| 3 |4 125 | 99 | 4621925 
.| 8 |9 | 4096 | 250 | 20155392 


Так как мы положили, что блоки сетки в обоих методах равны, то в дальнейшем для 
упрощения записи мы можем дальнейшие вычисления и оценки делать не для и 
блоков сетки, а для одного блока. 


Топологии сети передачи данных 


Уравнения одношаговых разностных блочных методов «типа Биккарта» для 
блока из К точек при использовании вычисленного значения приближенного 
решения в последнем предшествующем блоку узле, с учетом введенных выше 
обозначений можно записать в виде (3). 

Параллельные ВС имеют в своем составе поле процессоров, а также один или 
несколько модулей памяти. Эти функциональные компоненты должны быть связаны 
через соответствующие коммутационные системы. В силу специфики задач, 
решаемых на параллельных ВС [3], структура линий связи (топология сети 
передачи данных) должна удовлетворять различным требованиям. Во-первых, 
должна обеспечиваться связь между двумя любыми процессорами или модулями. 
Кроме этого, должно поддерживаться максимальное количество одновременных 
связей, чтобы средства коммутации не ограничивали параллельную обработку 
информации. 

К числу типовых топологий обычно относят следующие схемы: линейка/кольцо, 
решетка/тор, гиперкуб [4]. Так как в последнее время наиболее распространены топо- 
логии решетка-тор и гиперкуб, мы будем проводить анализ методов для этих двух 
топологий. 
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Решетка (матрица, сетка — тезВ) представляет собой систему, в которой 
процессоры расположены в виде правильной двумерной решетки и каждый процессор 
(кроме крайних) соединен с четырьмя соседями. Если в решетке граничные про- 
цессоры соединить линиями связи, то получится замкнутый вариант решетки или тор. 


Торроидальные 2)-схемы соединения имеют диаметр, пропорциональный Ур [5]. 


Структура гиперкуб (Бурегсибе) является частным случаем решетки, когда по 
каждой размерности сетки имеется только два процессора [4]. То есть гиперкуб 
содержит р=2” процессоров при размерности №. При гиперкубовой архитектуре 
число связей между процессорами небольшое: в М№М-мерном гиперкубе каждый 
процессор имеет № соседей. 

Небольшим по сравнению с числом процессоров оказывается и диаметр систе- 
мы, равный 105, р. Топология гиперкуб предоставляет возможность моделировать 
некоторые важные типы связей: линейка, кольцо, решетка. Недостатком описанной 
архитектуры является существование практического предела увеличения размер- 
ности гиперкуба. 

Для оценки времени выполнения операции передачи одного сообщения 
объемом У байт между двумя процессами, локализованными на различных процес- 
сорах при распределенной памяти, используется следующая линейная модель, пред- 
ложенная Хокни [6]: 

РЕ АВЕЕ (10) 
р-р 5 м ОБ 
где 1, — латентность, длительность подготовки сообщения для передачи; 
/— длина маршрута; 
1, — время передачи одного байта; 
у- число байт в слове; 


В — пропускная способность канала передачи данных (байт/секунда). 

Рассмотрим три коммуникационные операции: 

1) передача данных между двумя процессорами сети — операция типа «точка- 
точка»; 

2) передача данных от одного процессора всем остальным процессорам сети — 
операция «один-всем», или «опе-ю-а[»; 

3) передача данных от всех процессоров сети всем процессорам сети — множествен- 
ная пересылка «все-всем», или «а|-ю-аП». 

Трудоемкость одиночной операции пересылки данных между двумя процессорами 
может быть получена путем подстановки длины максимального пути (диаметра 
сети) в выражение (10). Для вычисления времени выполнения множественной пере- 
сылки необходимо выбрать алгоритм маршрутизации. К числу наиболее рас- 
пространенных оптимальных алгоритмов передачи данных относятся методы поко- 
ординатной маршрутизации [4]. Идея этих методов заключается в том, что поиск 
путей передачи данных осуществляется последовательно для каждой размерности рас- 
сматриваемой топологии. 

Для топологии решетка-тор (рис. 3 а) одиночная операция пересылки данных 
требует следующего времени (11) для исполнения с учетом модели (10) и диаметра 
топологии. 


ТМ, = +271, /р/2 |. (11) 
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Пересылка данных от одного процессора всем остальным в условиях топологии 
тор может быть получена из этого же способа передачи для кольцевой топологии, 
выполненного в два этапа (12). 


Ти ош =, +241. /р/2|. (12) 


Множественная рассылка сообщений также может быть выполнена при помо- 
щи алгоритма, получаемого обобщением способа передачи данных для кольцевой 
структуры сети на основе идеи покоординатной маршрутизации (13). 


ТМ щи =21,(/р-Ю+И-ь,(р-1. (13) 


Для топологии гиперкуб (рис. 3 6) время выполнения одиночной операции пере- 
сылки данных равно (14). 


ТИ =Ь-+И-4, 08. р. (14) 


Время выполнения операции передачи данных от одного процессора всем осталь- 
ным в топологии гиперкуб выражается формулой (15). 


т. =(.+7.1,)-ю5,р. (15) 


опе-ю-ай —_ 
Алгоритм выполнения множественной рассылки сообщений для гиперкуба 
может быть получен путем обобщения способа передачи данных «все-всем» для 
топологии решетка на размерность гиперкуба р =102, р. Каждому процессору 


ставится в соответствие двоичный эквивалент его номера. Процессоры, имеющие 
непосредственное соединение в гиперкубе, будут иметь номера, отличающиеся друг 


от друга только одним разрядом. На каждом этапе 1,1=1р алгоритма функцио- 


нируют все процессоры сети, которые обмениваются данными со своими соседями 
по 7 размерности и формируют объединенные сообщения (16). 


1 Гра 
То = У, +217 -4,)=1, Ю8, р+Е,-Г-(р-И. (16) 


Алгоритм распараллеливания 


Рассмотрим простейший в реализации метод распараллеливания — распараллели- 
вание по уравнениям вычислительной схемы метода. Пусть в нашей вычислительной 
системе р процессоров, а система уравнений, для которой решается задача Коши, 


имеет т уравнений. Тогда на каждом процессоре в нашем алгоритме распаралле- 


т з 
ливания будут вычисляться — уравнений для всех К точек текущего блока. После 
Р 


того как эти значения вычислены, каждый процессор рассылает значения в последней 
точке блока каждого своего уравнения остальным процессорам, т.е. происходит 
обмен типа «все-всем». Считая, что мы работаем с 8-байтными числами, согласно 
модели Хокни мы получаем время обмена для 1 блока сетки для топологии решетка- 
тор (17), а для топологии гиперкуб соответственно (18). 


т 
м 21, -0+8- в, (р-П, (17) 


т 
ый = 1, у 05, р ыы 1, | 8 ь р у (р = 1) * (18) 
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Анализ ускорения и эффективности 


Обозначим через т количество уравнений в исходной системе, через б -— время 
выполнения одной операции с плавающей точкой, а через Т, (6) — сложность правой 
части, т.е. время вычисления Р(х,1). Будем считать, что для нахождения решения во 


всех А точках блока с заданной точностью достаточно А итераций. С учетом введенных 
обозначений и предположения, мы получим, что время последовательного вычисления 
всех точек одного блока каноническим блочным методом выражается формулой (19), а 
методом «типа Биккарта» — выражением (20). 


Т®“ = (Т,(6)-+(2-&+4)-6)-К.К-т, (19) 
ТИ = (т/(5)+ (© -2-к+4).6)-К-К-т. (20) 


5 


Время параллельного вычисления всех точек одного блока с использованием пред- 
ложенного алгоритма распараллеливания каноническим блочным методом выра- 
жается формулой (21) для топологии решетка-тор и (22) для топологии гиперкуб, а 
методом «типа Биккарта» — выражением (23) для топологии решетка-тор и (24) для 
топологии гиперкуб соответственно. 


Тем = (Т,(6)-К+(2-&+4)-6) Е.Е. +244, (2-18-74, (2-0, (21) 
Р Р 


—тезй 


р-йсибе 


ть = (Т,(6)-+(2-К+4)-5) КК”, ов, р+8- 1, (р-0, = (22) 
Р р 


р-тей — 


ты = (т (+ 2-5 +4).6) та, (Ур т, (рЬ-0, (23) 
Р Р 


р-йсибе 


ис т т 
р (16) +(#'-2-#+4)-6) 5-08, р+8-- 4, ф-1. (4) 


В случае простой правой части Т,(0) ускорение и эффективность обоих 


методов очень малы, поэтому рассмотрим случай достаточно сложной правой части 
Т, (5) =1000-6. Значения 6, 1,, 1, были взяты из [4], они являются реальными 


значениями, измеренными для кластера Нижегородского государственного универ- 
ситета. Количество процессоров р возьмем равным 512. 


5 
100. - 


80| 
60' 
40. 


20- 


10 20 300 40 50 
6) 


---- б-точечный канонический 
7-точечный «типа Биккарта» 


Рисунок 3 — Ускорение а) и эффективность 6) канонического одношагового 
блочного метода и метода «типа Биккарта» для топологии решетка-тор 
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Построив графики ускорения и эффективности, легко увидеть, что для обеих 
рассматриваемых топологий и обоих рассматриваемых методов с ростом количества 
точек в методе улучшаются характеристики и ускорения, и эффективности. Сравним 
ускорение (рис. 3 а, рис. 4 а) и эффективность (рис. 3 6, рис. 4 6) наилучшего из пред- 
ставленных канонических одношаговых блочных методов и наилучшего из представ- 
ленных методов «типа Биккарта» для обеих топологий. 
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Рисунок 4 — Ускорение а) и эффективность 6) канонического одношагового 
блочного метода и метода «типа Биккарта» для топологии гиперкуб 


Анализ масштабируемости 


Постановка вопроса об оценке эффективности распараллеливания при увеличении 
числа процессоров с сохранением объема вычислений не всегда является целью иссле- 
дований, более того, некоторыми авторами [7] считается спорной. Действительно, при 
изменении числа процессоров эффективность параллельного алгоритма зависит как от 
свойств самой топологии сети, так и от того, насколько хорошо данный алгоритм под- 
ходит для данной топологии, насколько удачно он использует ее лучшие стороны. По- 
этому нельзя исследовать масштабируемость параллельного алгоритма абстрактно, в 
отрыве от топологии сети. 

Мы будем исследовать масштабируемость параллельных алгоритмов с помощью 
математического аппарата теории изоэффективного анализа [8], [9]. Для построения 
функции изоэффективности необходимо определить общие накладные расходы на парал- 
лельный алгоритм, для обоих алгоритмов они у нас будут одинаковыми вследствие 
выбранного алгоритма распараллеливания. Для топологии решетка-тор эти расходы 
выражаются формулой (25), а для топологии гиперкуб — формулой (26). 


Ти =, -р-(Мр-1)+8-т-1,-(р-1, (25) 
Те =. р-108,р+8-т-1,(р-П. (26) 
Основное соотношение изоэффективного анализа [9] имеет вид (27). 
р (27) 
где КВ (28) 
1-Е 
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Тогда основное соотношение изоэффективного анализа для канонического 
одношагового блочного метода для топологии решетка-тор принимает вид (29), а 
для топологии гиперкуб — (30). Аналогично для метода «типа Биккарта» для 
топологии решетка-тор имеем (31), а для топологии гиперкуб - (32). 


Р.т- 2-2 +Ю-6+ 8-76) = К (2-(Мр-1)-р-1,+8-т-(р--,}, (9) 


К-т. (2-(2+Ю.6+Е.-Т,(5)) = К. (8-т-(р-Ю-,+р-1, 108, р), (30) 
Е.т.((4-2-5+®).6+т,(6))= К .(2-(Ур-1)-р-,+8-т-(р-П-, }, (31) 
Ю.т-((4-2-к+®)-6+Т,(6)) = К-(8-т-(р-Ю-,+р-1,ю8,р). = (32) 


Так как количество точек в блоке К =2,7 и мы рассматриваем случай систем с 
большим количеством уравнений т>> А и сложной правой частью Т,(6) >>, а 


также с учетом того, что мы полагаем р<т всегда, то выражения (29) — (32) можно 
преобразовать к виду (33) — (36) соответственно. 


т-Т,(0) < К-т-р-4, 
3 з (33) 
т-Т, (6) < К. р? -1, 


(34) 
т-Т,(0) < К-т-р-4, 
Е (35) 
т-Т, (6) < К. р? -1, 
т-Т,(6) < К-т-р-&, (6) 
т-Т,(6) «К -р-Юю8,р-1,. 
Как мы видим, для обоих видов топологий и обоих видов методов основное 
соотношение изоэффективного анализа принимает один и тот же вид (37). 


т-Т,(6) < К-т. р-(,. (37) 


Из соотношения (37) следует, что при увеличении количества процессоров для 
сохранения постоянной эффективности можно увеличивать не только количество 
уравнений т системы, но и сложность правой части Т,(6). 


Выводы 


Канонические одношаговые блочные методы и методы «типа Биккарта» по причине 
использования одинакового метода распараллеливания обладают одинаковой масштаби- 
руемостью. Чем сложнее правая часть уравнения Т,(6) , тем большее ускорение и эффек- 


тивность показывают оба метода. Как видно из рис. 3 —4а) и б), ускорение и эффектив- 
ность б-точечного канонического блочного метода (наилучшего из рассмотренных кано- 
нических одношаговых методов) выше, чем ускорение и эффективность 7-точечного 
метода «типа Биккарта», при этом оба метода обладают одинаковым порядком 
аппроксимации. Как видно из табл. 1, при сравнении пар методов, обладающих одним по- 
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рядком аппроксимации, оказывается, что у канонического одношагового метода в каждой 
из пар невязка меньше, т.е. метод является более точным, в то же время его ускорение и 
эффективность выше, чем у метода «типа Биккарта» того же порядка аппроксимации. 
Учитывая это, а также то, что масштабируемость обоих методов одинакова за счет 
выбранного алгоритма распараллеливания, канонические одношаговые методы оказыва- 
ются в целом лучше методов «типа Биккарта». 
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Л.П. Фельдман, Д.О. Завалюн 

Ефективиесть та здабнсть до масштабування паралельних блокових однокрокових метод1в 
виришення задач! Копи 

У статт! розглядаеться дв! с1м’Т паралельних неявних блокових методв вирипення задач! Копп. 
Визначаеться порядок апроксимацй кожного з метод!в, подаеться оцнка для в1дхилв методв. Для 
запропонованого методу розпаралелювання виконуеться побудова ошнок прискорення, ефективност! 
та здабност! до масштабування. На шдстав1 отриманих ощнок даються рекомендаций щодо умов, у 
яких подан! методи найб1льш продуктивн:. 


Г.Р. Еаатан, О.А. Хауайап 

ЕМаепсу ап@ Зсаа Шиу оЁ РагаПе! Воск Опе-З{ер Меод$ №ог Саисву РгоШет Зоийоп 

Тую т Шез$ оё рагаПе| парНсй Моск тео4$ ог Саисву рго ета зоайоп аге сопз1Чеге4 ш 1$ рарег. 
АрргохиптаНоп ог4ег ап гез14иа| езбитаНоп оЁ еась тео аге Кипа. Еог ргорозе4 рагаПейтаЧоп 
а]еогИфтл рагаПе| зреедир, еЁйслепсу ап@ зса]аБИИу езйтайоп$ аге сопзгис{е4. Оп \е Ба51$ оЁ депуеа 
езИтаНоп$ эеПпе$ ог сопа!юоп$ оЁ те#о4’$ изшз аге ргорозе4. 


Статья поступила в редакцию 01.06.2009. 
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